הרצאה 10 - למידה וניבוי בלמידת חיזוקים (רסקולה וגנר, TD0)
למידת חיזוקים:
- תהליך למידה המונע מאינטרקציה עם הסביבה, על ידי מערכת של תגמולים ועונשים
סוגי התניות:
- התניה קלאסית (פבלובית): למידה של קשרים בין גירויים לתגמולים
- התניה אינסטרומנטלית (אופרנטית): למידה של פעולות שמובילות לתגמולים
כלל רסקולה וגנר:
- כלל המתאר את תהליך ההתנייה ואת חיזוי הגמול
- מטרת הלמידה לפי הכלל היא למצוא משקל W כך שימזער את שגיאת הניבוי
-
- תהליכים שונים ברסקולה וגנר:
- רכישה: הגירוי מופיע ביחד עם הגמול - המשקל מתכנס לגירוי
- הכחדה: הגירוי מופיע ללא הגמול - המשקל מתכנס ל-0
- חיזוק חלקי: כאשר הגירוי מופיע והגמול מתקבל רק בחלקים מהפעמים - המשקל מתכנס לממוצע הגמול.
- התנייה משנית: מקשרים גירוי ראשון לגמול ואז מקשרים גירוי שני עם הגירוי הראשון -> גם הגירוי השני מתקשר לגמול
שיטת (0)TD:
-
שיטה לחיזוי תגמולים עתידיים על בסיס התנסות, כאשר המטרה היא לשערך את הגמול העתידי הכולל (בניגוד לרסקולה וגנר שדורש צימוד בזמן של הגמול לניבוי)
-
במקום הערכה שלמה בסוף אפיסודה, עדכונים רציפים בזמן
-
פיתוח חישובים ב TD0:
- מציירים גרף מעברים בין המצבים השונים, כאשר S גדולה מסמנת שלב מסוים, s קטנה את המצב באותו זמן, ו R את הגמול הניתן במעבר בין השלבים. לדוגמא:

- נסרטט טבלת מצבים, כאשר הערך ההתחלתי עבור כל מצב הוא 0
- כדי למצוא את השינוי בערך של מצב לאחר מעבר נשתמש בנוסחא:
- נזכור לחבר את הדלתא לערך הקיים בטבלה ולעדכן רק בשורה הבאה.
- דוגמא לטבלת מצבים מלאה:
!center
- מציירים גרף מעברים בין המצבים השונים, כאשר S גדולה מסמנת שלב מסוים, s קטנה את המצב באותו זמן, ו R את הגמול הניתן במעבר בין השלבים. לדוגמא: